Categorización semi-supervisada de documentos usando la Web como corpus

نویسنده

  • Rafael Guzmán-Cabrera
چکیده

PhD thesis in pattern recognition and artificial intelligence written by Rafael Guzmán Cabrera at the Universidad Politécnica de Valencia under the joint supervision of Dr. Paolo Rosso and Dr. Manuel Montes y Gómez (INAOE, México). The author was examined on november 24th, 2009 by the committee formed by Manuel Palomar Sanz (Universidad de Alicante), Paloma Martínez Fernández (Universidad Carlos III de Madrid), Luis Villaseñor Pineda (INAOE, México), Grigori Sidorov (Instituto Politécnico Nacional, México) and Antonio Molina Marco (Universidad Politécnica de Valencia). The grade obtained was Sobresaliente Cum Laude (highest mark)

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Robust Document Clustering by Exploiting Feature Diversity in Cluster Ensembles

Resumen: Las prestaciones de los sistemas de clasificación no supervisada de documentos están supeditadas al uso de representaciones textuales óptimas, las cuales no son sólo dif́ıciles de determinar de antemano, sino que pueden variar de un problema de clasificación a otro. Este trabajo propone una metodoloǵıa basada en diversidad de representaciones y conjuntos de clasificadores no supervisado...

متن کامل

Categorización automática de documentos en español: algunos resultados experimentales

Resumen. La categorización automática puede contemplarse como un proceso de aprendizaje, durante el cual un programa capta las características que distinguen cada categoría o clase de las demás, es decir, aquéllas que deben poseer los documentos para pertenecer a esa categoría. De otro lado, pocos experimentos se han efectuado todavía con documentos en español. Se muestran las posibilidades de ...

متن کامل

WWW como fuente de recursos lingüísticos para su uso en PLN

Resumen Crear un corpus extraído a partir de la Web está lejos de ser una tarea trivial. El elevado grado de heterogeneidad que es usual encontrar en el formato HTML, la gran cantidad de información irrelevante tanto en el sitio Web como dentro de una misma página y otros problemas de diversa índole, dificultan la obtención de un conjunto de documentos de aspecto homogéneo, estructurado y libre...

متن کامل

Modelos formales para la definición estructural y semántica en documentos XML. Comparación de posibilidades en un corpus textual de documentación jurisprudencial

Resumen: Se presenta una comparación de soluciones a la modelización formal de la estructura y la semántica de documentos textuales, en concreto a una colección de sentencias del Tribunal Constitucional español, que se ha utilizado como material de experimentación de tecnologías XML en una tesis doctoral ya defendida. Se analizan y aplican los dos modelos principales de la tecnología XML para l...

متن کامل

A Medical Multilingual Information Retrieval

The Web is full of documents and resources. Users employ different strategies to find information they need: by browsing, using search engines, by following existing categories in a Web catalog. For technical sublanguages such as the medical one, document indexing based on lexical entities at a subword level has proved useful. However, it still remains challenging to identify and to delimit the...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 46  شماره 

صفحات  -

تاریخ انتشار 2011